10 research outputs found

    Etiquetaxe e desambiguación automáticas en galego: o sistema XIADA

    Get PDF
    A construción de recursos lingüísticos, entre os que se encontran os corpus ou bases de datos textuais, é necesaria en toda lingua para continuar profundando no seu coñecemento, mais tamén é fundamental para o procesamento da linguaxe natural. Nos últimos anos, ademais, as novas tecnoloxías xorden como un parámetro máis de clasificación das linguas en función da súa presenza ou ausencia nelas. Neste marco sitúase o presente traballo, onde se recollen e describen polo miúdo os diferentes recursos lingüísticos elaborados –etiquetario, lexicón e corpus de adestramento, basicamente– para que poida executarse con garantías dunha alta taxa de acerto un etiquetador de tipo estatístico-probabilístico como é o Etiquetador/Lematizador do galego actual (XIADA), aplicado aos documentos que conforman o Corpus de Referencia do Galego Actual (CORGA) –corpus considerado representativo da lingua galega actual, cuxas características lingüísticas constatan as dificultades de traballar con lingua real–. Coa etiquetaxe permítese dar un salto cualitativo no sistema de consultas, de xeito que se facilita a recuperación de información a través dunha aplicación web mediante a consulta por forma, lema, etiqueta morfosintáctica ou calquera combinación destas; co engadido, naturalmente, das prestacións do CORGA. O resultado palpable da aplicación do sistema XIADA á análise de corpus en galego pode consultarse en liña accedendo ao Corpus de Referencia do Galego Actual etiquetado (CORGAetq)

    Partículas exceptivas: problemas de delimitación e proposta de análise

    Get PDF
    A comprehensive description of the functional behaviour of the Galician excluding~exceptive particles "excepto", "menos", "quitado", "quitando", "sacado", "sacando" and "salvo", and combinations of these with "que" and "se", is presented in this work. A vast and heterogeneous corpus, self-compiled from examples retrieved from the reference corpora of present-day written common Galician language (CORGA and TILG), was used for this purpose. Classification of these particles either as prepositions or conjunctions in present literature is also questioned in this article, while exposing the reasons both for and against each theory. Finally, an analysis model and a new categorisation are proposed.Neste traballo, partindo dun corpus amplo e variado de elaboración propia conformado a partir de exemplos extraídos dos corpus de referencia do galego común escrito actual -CORGA e TILG-, realizo unha descrición exhaustiva do comportamento funcional das partículas exceptivas~excluíntes excepto, menos, quitado, quitando, sacado, sacando e salvo, e destas en combinación coas conxuncións que e se. Así mesmo, cuestiono a súa delimitación nos manuais actuais tanto na clase das preposicións como na das conxuncións, analizando polo miúdo os argumentos esgrimidos a favor e en contra, e remato facendo unha proposta de análise e propoñendo unha nova categorización

    Ás voltas con 'cerca de', a valoración aproximativa e os complementos de medida

    Get PDF
    The different attempts to categorise cerca followed by the preposition de as an expression of spatial location, as opposed to its categorisation as an expression of temporal location and approximative value, has led me to delve further into the uses of cerca de in contemporary Galician. Its widespread use in quantitative expressions, found in combination with verbs indicating size, distance and duration, calls for a revision of the syntactic classification of the so-called size complements. On the basis of the data from Galician, the present paper challenges the categorisation of both cerca de as a preposition and of size complements functioning as direct objects.O intento de axustar a categorización de cerca seguido de frase preposicional con de no ámbito da localización espacial, en contra-posición co da localización temporal e a valoración aproximativa, lévame a profundar sobre estes últimos usos no galego actual. A súa presenza, ademais, en expresións cuantitativas con verbos de medida, distancia e duración provoca que revise a problemática clasificación sintáctica dos denominados complementos de medida e que cuestione tanto a catalogación preposicional de cerca de como a de complemento directo, cuestións ambas para as que creo que o galego achega datos interesantes

    Non-Sexist Language in CORGA: Description of the Variants Used and Further Reflection

    Get PDF
    Nas últimas décadas un sector da poboación entende que o masculino se considera termo non marcado da oposición xenérica por seren tradicionalmente os homes os que posuían o poder, e non sente que as diferentes identi-dades xenéricas estean representadas no masculino empregado como termo non marcado. Asistimos pois á loita para acadar a igualdade entre homes e mulleres tamén dende a lingua, por unha banda facendo visible o xénero feminino, e pola outra anulando a distinción xenérica como elemento clasificador dual. Entre as opcións que se propoñen para acadar estes fins destacan a duplicación dos termos (os alumnos e as alumnas, as alumnas e os alumnos), a escolla dun termo xenérico (o alumnado) e a introdución de grafías innovadoras: os/as alumnos/as, as/os alumnas/os, @s alum-n@s, xs alumnxs e, a máis recente, es alumnes. Neste traballo, tras unha breve panorámica explicativa, describiremos o uso destas formas no galego escrito actual a través dos datos recollidos no Corpus de Referencia do Galego Actual(CORGA), e proporemos abrir un debate lingüístico sobre o establecemento dun novo valor na categoría gramatical xénero e a súa posible inclusión nas gramáticas descritivas.En las últimas décadas un sector de la población entiende que el masculino se considera el término no marcado de la oposición genérica por ser tradicionalmente los hombres los que detentaban el poder, y no siente que las diferentes identidades genéricas estén representadas en el masculino usado como término no marcado. Asistimos pues a la lucha para alcanzar la igualdad entre hombres y mujeres también desde la lengua, por un lado haciendo visible el género femenino y, por otro, pretendiendo anular además la distinción genérica como elemento clasificador dual. Entre las opciones que se proponen para alcanzar estos fines destacan la duplicación de los términos (os alumnos e as alumnas, as alumnas e os alumnos), la elección de un término genérico (o alumnado) y la introducción de grafías inno-vadoras: os/as alumnos/as, as/os alumnas/os, @s alumn@s, xs alumnxs y, la más reciente, es alumnes. En este trabajo, tras una breve panorámica explicativa, describiremos el uso de estas formas en el gallego escrito actual a través de los datos recogidos en el Corpus de Referencia do Galego Actual (CORGA), y propondremos abrir un debate lingüístico sobre el establecimiento de un nuevo valor en la categoría gramatical género y su posible inclusión en las gramáticas descriptivas.Masculine markers have been traditionally used to refer to males and females collectively. However, over the past few decades a growing sector of the popu-lation has been claiming that masculine markers cannot be regarded as neutral, given that these do not include gender identities other than masculine. As this use is thought to stem from the male privileges in androcen-tric societies, the struggle for gender equality has also reached language. Examples show that feminine markers are being made visible while gender binarism is being disfavoured. In fact, several options are being employed, for instance, writing gendered nouns in their masculi-ne and feminine endings (os alumnos e as alumnas, as alumnas e os alumnos), choosing a gender-neutral term (o alumnado) and developing innovative spellings (os/as alumnos/as, as/os alumnas/os, @s alumn@s, xs alumn-xs and, more recently, es alumnes). This article focuses on the use of the aforementioned variants in present-day written Galician by analysing the data compiled in the Corpus de Referencia do Galego Actual (CORGA), with a view to launching a linguistic debate on the adoption of a new value for the gender grammatical category and its potential treatment in descriptive grammarsS

    Las construcciones comparativas en corpus del español sintácticamente anotados

    Get PDF
    En esta exposición, tras una breve explicación de los presupuestos en que se basa la elaboración del corpus CSA y de lo que entendemos que subyace a los niveles de descripción gramatical que pueden reconocerse, se aborda el estudio de las estructuras comparativas, clasificadas en grupos a partir fundamentalmente de la Nueva Gramática de la Lengua Española (NGLE), en cuanto a como puede variar y varía su análisis en tres corpus sintácticamente analizados (UAM Spanish Treebank, IULA Spanish LSP Treebank y AnCora-es) y con respecto especialmente al propio corpus CSA. De ello se concluye que, para los propósitos de la anotación de corpus y la reutilización de recursos, una reflexión conjunta que camine hacia una estandarización en el paso de un nivel de descripción no formalizado a uno que sí lo esté se hace hoy necesaria

    Avaliación dun etiquetador automático estatístico para o galego actual: Xiada

    Get PDF
    We evaluate, from a linguistic point of view, a statistical automatic labelling machine, which is explained together by the Center Ramón Piñeiro on Humanities Research and the COLE Group of Vigo and La Coruña Universities, and which also set aside for labelling the papers of Present Galician Reference Corpus so as to provide tools and resources for the computational linguistic analysis of Present Galician.Neste traballo avaliamos, dende o punto de vista lingüístico, un etiquetador automático estatístico, desenvolto conxuntamente polo Centro Ramón Piñeiro para a Investigación en Humanidades e o Grupo COLE das Universidades de Vigo e A Coruña, destinado a etiquetar os documentos do Corpus de Referencia do Galego Actual co obxecto de proporcionar recursos e ferramentas para a análise lingüística computacional do galego actual

    Automatic tagging and disambiguation in Galician: the XIADA system

    Get PDF
    Tesis doctoral en Lingüística realizada por Eva María Domínguez Noya en la Universidad de Santiago de Compostela (USC) bajo la dirección del Dr. Guillermo Rojo (USC) y la Dra. María Sol López Martínez (USC). El acto de defensa de la tesis tuvo lugar el lunes 25 de noviembre de 2013 ante el tribunal formado por la Dra. Rosario Álvarez Blanco (USC), la Dra. María Inês Pedrosa da Silva Duarte (Universidad de Lisboa), el Dr. Jorge Graña Gil (Universidad de A Coruña), la Dra. María Taulé Delor (Universidad de Barcelona) y la Dra. María Paula Santalla del Río (USC). La calificación obtenida fue Sobresaliente Cum Laude por unanimidad.PhD thesis in Linguistics, written by Eva María Domínguez Noya at the University of Santiago de Compostela (USC), under the supervision of Dr. Guillermo Rojo and Dr. María Sol López Martínez (USC). The viva examination was held on the 25th of November 2013. The Examining Board consisted of the following members: Dr. Rosario Álvarez Blanco (USC), Dr. María Inês Pedrosa da Silva Duarte (University of Lisbon), Dr. Jorge Graña Gil (University of A Coruña), Dr. María Taulé Delor (University of Barcelona) and Dr. María Paula Santalla del Río (USC). The unanimously awarded grade was Excellent Cum Laude

    Construcción de sistemas de recuperación de información sobre córpora textuales estructurados de grandes dimensiones

    No full text
    En este trabajo se evalúan las principales tecnologías para el desarrollo de sistemas de recuperación de información basados en córpora estructurados de grandes dimensiones: Oracle (Oracle Corporation, 8/3/2005) y Tamino (Software AG Company, 8/3/2005).In this paper we evaluate main technologies to develop Information Retrieval Systems based on large text structured corpora: Oracle (Oracle Corporation, 8/3/2005) and Tamino (Software AG Company, 8/3/2005).Parcialmente financiado por el Ministerio de Educación y Ciencia (MEC) y FEDER (TIN2004-07246-C02-01 y TIN2004-07246-C02-02), por MEC (HF2002-81), y por la Xunta de Galicia (PGIDIT02PXIB30501PR, PGIDIT02SIN01E y PGIDIT03DIN30501PR)

    El proyecto Gari-Coter en el seno del proyecto RICOTERM2

    Get PDF
    Descripción del proyecto Gari-Coter para la elaboración de los recursos lingüísticos en gallego necesarios para un re-elaborador de consultas multilingüe.Description of the Gari-Coter project for the development of the necessary linguistic resources in Galician for a multilingual query re-elaborator

    A Corpus and Lexical Resources for Multi-word Terminology Extraction in the Field of Economy in a Minority Language

    No full text
    In this paper, we describe the compilation and structure of two linguistic resources, a corpus and a dictionary of terms in the field of economy, developed for Galician. In addition to this, we describe the use of these resources for the automatic extraction of multi-word terms by means of a combination of linguistic and statistical techniques. While doing this, special attention will be paid to the problems posed by minority languages such as Galician for the achievement of these tasks. 1
    corecore